On a choisi d'utiliser les algorithmes d'apprentissage supervisés suivant: 

\begin{itemize}
\item[\textopenbullet ]{\em SVM}\footnote{Support Vector Machine}, machines à vecteurs de support
\item[\textopenbullet ]{\em Bayes naïve}.
\end{itemize}
~\\

D'autres algorithmes ont été testés, tel que les arbres de décision, mais ne seront pas présentés ici. 
~\\

On va compter tous les 4-mers correspondant au pattern \#\#\_\#\# dans les protéines de cox1. 
On a autant de vecteurs de comptage que de séquences codant pour les protéines cox1 pour un taxon. 
\newpage
\paragraph{Hexapoda}
~\\

\begin{figure}[H]
\begin{center}
\includegraphics[scale=0.7]{../imports/hexapoda.png}
\caption{\label{hexapoda} Vue arborescente au niveau Hexapoda}
\end{center}
\end{figure}
~\\
\\

Étant au niveau des hexapodes on doit déterminer si l'espèce inconnue qu'on cherche à classer correspond:
\\
\begin{itemize}
\item[\textopenbullet ] au Diplura, avec l'identifiant 29997 et 28 séquences
\item[\textopenbullet ] au Ellipura, avec l'identifiant 79744 et 36 séquences
\item[\textopenbullet ] ou au Insecta, avec l'identifiant 505557 et 2306 séquences
\end{itemize}
~\\

Le fichier correspondant se présente sous cette forme et se trouve dans le dossier des hexapodes:

\begin{figure}[H]
\begin{lstlisting}[numbers=left]
    @relation kmers_count
    
    @attribute AAAA numeric
    @attribute AAAC numeric
    @attribute AAAG numeric
    @attribute AAAT numeric
    ...
    @attribute TTTG numeric
    @attribute TTTT numeric
    
    @attribute id {29997,79744,50557}
    
    // Les donnees correspondantes aux differents attributs
    @data
    ...  
\end{lstlisting}
\caption{\label{fichierweka} Fichier d'apprentissage pour les hexapodes}
\end{figure}

Après avoir découpé, selon la méthode présentée pour la validation croisée, les données de la partie data en deux échantillons, on peut 
fournir à Weka l'échantillon d'entraînement pour l'apprentissage et l'échantillon de validation pour la classification.
\\

Ci-dessous le pourcentage d'instance bien classée avec les méthodes d'apprentissage SVM et Bayes Naïf:

\begin{figure}[H]
\begin{tabular}{|*{12}{c|}}
  \hline
  Validation & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 & Moyenne  \\
  \hline
  \% &&&&&&&&&&& \\ instances &&&&&&&&&&& \\bien classées & 91,66 & 95,83 & 83,33 & 91,66 & 83,33 & 91,66 & 91,66 & 79,16 & 95,83 & 91,66 & 89,58 \\
  \hline
\end{tabular}
\caption{\label{resultatSVM} Pourcentage d'instances bien classées avec l'algorithme SVM}
\end{figure}
~\\

\begin{figure}[H]
\begin{center}
\begin{tabular}{|*{12}{c|}}
  \hline
  Validation & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 & Moyenne  \\
  \hline
  \% &&&&&&&&&&& \\ instances &&&&&&&&&&& \\bien classées & 100 & 95,83 & 100 & 91,67 & 100 & 95,83 & 100 & 87,5 & 95,83 & 100 & 96,67 \\
  \hline
\end{tabular}
\caption{\label{resultatBayes} Pourcentage d'instances bien classées avec l'algorithme Bayes Naïf}
\end{center}
\end{figure}
~\\

\paragraph{Vertebratas}
~\\

\begin{figure}[H]
\begin{center}
\includegraphics[scale=0.7]{../imports/vertebrata.png}
\caption{\label{hexapoda} Vue arborescente au niveau Vertebrata}
\end{center}
\end{figure}
~\\
\\

Étant au niveau des vertébrés on doit déterminer si l'espèce inconnue qu'on cherche à classer correspond:
\\
\begin{itemize}
\item[\textopenbullet ] au Gnathostomata\footnote{Vertébrés à mâchoires}, avec l'identifiant 7776 et 16096 séquences.
\item[\textopenbullet ] ou aux autres (others), c'est à dire les vertébrés qui ne sont pas des Gnathostomata (au total 16 séquences).
\end{itemize}
~\\
\newpage
Le fichier correspondant se présente sous cette forme et se trouve dans le dossier des vertébrés:

\begin{figure}[H]
\begin{lstlisting}[numbers=left]
    @relation kmers_count
    
    @attribute AAAA numeric
    @attribute AAAC numeric
    @attribute AAAG numeric
    @attribute AAAT numeric
    ...
    @attribute TTTG numeric
    @attribute TTTT numeric
    
    @attribute id {7776,others}
    
    // Les donnees correspondantes aux differents attributs
    @data
    ...  
\end{lstlisting}
\caption{\label{fichierweka} Fichier d'apprentissage pour les vertébrés}
\end{figure}

Ci-dessous le pourcentage d'instances bien classées avec les méthode d'apprentissage SVM et Bayes Naïf:

\begin{figure}[H]
\begin{tabular}{|*{12}{c|}}
  \hline
  Validation & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 & Moyenne  \\
  \hline
  \% &&&&&&&&&&& \\ instances &&&&&&&&&&& \\bien classées & 98,33 & 97,21 & 99,95 & 98,33 & 95,32 & 99,45 & 99,32 & 100 & 99,12 & 96,43 & 98,36 \\
  \hline
\end{tabular}
\caption{\label{resultatSVM} Pourcentage d'instances bien classées avec l'algorithme SVM}
\end{figure}
~\\

\begin{figure}[H]
\begin{center}
\begin{tabular}{|*{12}{c|}}
  \hline
  Validation & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 & Moyenne  \\
  \hline
  \% &&&&&&&&&&& \\ instances &&&&&&&&&&& \\bien classées & 99,95 & 99,95 & 100 & 99,95 & 99,90 & 100 & 100 & 99,95 & 98,34 & 99,95 & 99,8 \\
  \hline
\end{tabular}
\caption{\label{resultatBayes} Pourcentage d'instances bien classées avec l'algorithme Bayes Naïf}
\end{center}
\end{figure}
~\\

Ce qu'on peut voir c'est qu'on a 11\% d'instances mal classées au maximum, ce qui est relativement correct pour des données où le comptage a été fait sur 16000 séquences. On peut noter également qu'on a plus de données bien classées avec l'algorithme de Bayes Naïf. De plus ce dernier algorithme est vingt fois plus rapide que l'algorithme SVM qui a mis 40 minutes pour les vertébrés.
